"""
初始化环境
    1、在云仓库中见一个仓库，并克隆到本地

    2、建立虚拟环境，激活虚拟环境并安装相关库


爬虫思路
（一）数据来源分析
    1、爬什么
        视频、标题
        大化小，再从简单到复杂
        首先获取视频列表，的到每个视频的URL
        再从每个视频的URL中的到想要的单独每集的URL
        

    2、去哪爬
        1、对某一集而言，先爬 ts， 再把所有的ts组装成一集视频
        2、再爬其他的集数

        
（二）爬虫代码实现
    1、发送请求
    2、获取数据
    3、解析数据
    4、保存数据


爬虫的分类：
按规模
    1、小爬虫 = 单页爬虫
    2、中爬虫 = 增量式爬虫
    3、大爬虫 = 大规模爬虫（用框架，目的是获取整个网站的数据）
    
以下是一些常见的爬虫分类：

通用爬虫（General Crawler）：通用爬虫是一种能够访问互联网上绝大部分网站的爬虫。它们通常是针对搜索引擎等大型网站设计的，可以自动跟随链接爬取网页。

聚焦爬虫（Focused Crawler）：聚焦爬虫是一种专注于特定领域或主题的爬虫。它们通过分析网页内容和链接，仅爬取与指定主题相关的网页，从而提高数据的质量和准确性。

增量式爬虫（Incremental Crawler）：增量式爬虫是一种能够检测网站内容更新并只爬取新内容的爬虫。这种爬虫通常会记录上次爬取的时间戳，并仅爬取自上次爬取以来更新的页面。

深层网络爬虫（Deep Web Crawler）：深层网络爬虫是一种能够访问深层网络（Deep Web）内容的爬虫。深层网络是指那些不被搜索引擎索引的网页，如需要登录或付费才能访问的页面。

分布式爬虫（Distributed Crawler）：分布式爬虫是一种将爬取任务分配给多个计算机进行爬取的爬虫。这种爬虫能够提高爬取效率和速度，同时也能减少单台计算机的负担。

恶意爬虫（Malicious Crawler）：恶意爬虫是一种用于非法目的的爬虫，如爬取用户隐私信息、盗取网站内容等。这种爬虫通常会被封禁或加以限制
"""


